Gene networks from high-throughput data –Reverse engineering and analysis

نویسنده

  • Mika Gustafsson
چکیده

Experimental innovations starting in the 1990’s leading to the advent of highthroughput experiments in cellular biology have made it possible to measure thousands of genes simultaneously at a modest cost. This enables the discovery of new unexpected relationships between genes in addition to the possibility of falsify existing. To benefit as much as possible from these experiments the new inter disciplinary research field of systems biology have materialized. Systems biology goes beyond the conventional reductionist approach and aims at learning the whole system under the assumption that the system is greater than the sum of its parts. One emerging enterprise in systems biology is to use the high-throughput data to reverse engineer the web of gene regulatory interactions governing the cellular dynamics. This relatively new endeavor goes further than clustering genes with similar expression patterns and requires the separation of cause of gene expression from the effect. Despite the rapid data increase we then face the problem of having too few experiments to determine which regulations are active as the number of putative interactions has increased dramatic as the number of units in the system has increased. One possibility to overcome this problem is to impose more biologically motivated constraints. However, what is a biological fact or not is often not obvious and may be condition dependent. Moreover, investigations have suggested several statistical facts about gene regulatory networks, which motivate the development of new reverse engineering algorithms, relying on different model assumptions. As a result numerous new reverse engineering algorithms for gene regulatory networks has been proposed. As a consequent, there has grown an interest in the community to assess the performance of different attempts in fair trials on “real” biological problems. This resulted in the annually held DREAM conference which contains computational challenges that can be solved by the prosing researchers directly, and are evaluated by the chairs of the conference after the submission deadline. This thesis contains the evolution of regularization schemes to reverse engineer gene networks from high-throughput data within the framework of ordinary differential equations. Furthermore, to understand gene networks a substantial part of it also concerns statistical analysis of gene networks. First, we reverse engineer a genomewide regulatory network based solely on microarray data utilizing an extremely simple strategy assuming sparseness (LASSO). To validate and analyze this network we also develop some statistical tools. Then we present a refinement of the initial strategy which is the algorithm for which we achieved best performer at the DREAM2 conference. This strategy is further refined into a reverse engineering scheme which also can include external high-throughput data, which we confirm to be of relevance as we achieved best performer in the DREAM3 conference as well. Finally, the tools we developed to analyze stability and flexibility in linearized ordinary differential equations representing gene regulatory networks is further discussed. POPULÄRVETENSKAPLIG SAMMANFATTNING Experimentella innovationer i cellbiologi från 1990-talet har gjort det möjligt att mäta aktiviteten hos tusentals gener samtidigt relativt billigt. Detta har möjliggjort upptäckten av oväntade förhållanden mellan gener direkt från experiment vilket både genererar nya hypoteser och avfärdar befintliga. För att dra största möjliga nytta av de nya mätningarna har det nya tvärvetenskapliga forskningsområdet systembiologi växt fram. Systembiologi går bortom den konventionella reduktionistiska ansatsen och försöker lära hela systemet under antagandet att systemet är större än summan av dess beståndsdelar. Ett stort ämne inom detta område är att använda data från de storskaliga mätningarna för att skapa modeller för det regleringsnätverk som ligger till grund för dynamiken av geners uttryck och cellens dynamik. Detta försök att skilja orsak och verkan åt mellan gener är relativt nytt och går vidare från tidigare ansatser där grupper av gener med liknande dynamiska mönster detekteras. Flera svåra problem föreligger emellertid, framförallt har vi för få experiment för att säkert bestämma vilka interaktioner som används. En möjlighet att lösa detta problem är att införa mer biologiskt motiverade villkor. Men vad som är ett biologiskt faktum eller inte är ofta inte uppenbart och även tillståndsberoende. Dessutom har undersökningar föreslagit flera statistiska fakta om genregleringsnätverk, som kräver utveckling av nya metoder att identifiera systemet. Därför har en uppsjö nya metoder för att identifiera genregleringsnätverk föreslagits. Följaktligen har också intresset ökat i området för att utvärdera resultaten av olika försök i tester på ”verkliga” biologiska problem. Detta resulterade i den årligen hållna DREAM konferensen som innehåller flera beräkningsproblem som kan lösas direkt av de forskare som förespråkar en viss metod och bedöms sedan efter sista dagen för deltagande av konferensens organisatörer. Denna avhandling innehåller utvecklandet av en strategi för att identifiera nätverk innehållande tusentals gener utifrån storskaliga mätningar baserat på regularisering av ordinära differentialekvationer. Vidare för att förstå och möjliggöra validering av gennätverk handlar en väsentlig del också om statistisk analys av gennätverk. Först identifierar vi ett storskaligt regleringsnätverk baserat enbart på tidsutvecklingen för olika geners uttryck via en enkel strategi att nyttja att genregleringsnätverk är relativt enkla. För att validera och analysera gennätverk utvecklar vi också en del statistiska verktyg som fyller detta ändamål. Sedan visar vi en vidareutveckling av den ursprungliga strategin med vilken vi vann utmärkelsen best performer vid DREAM2 konferensen. Denna identifieringsstrategi utvecklar vi sedan vidare till en strategi som klarar att ta hänsyn till flera typer av storskaliga datatyper. Som bevis på dess applicerbarhet får vi återigen utmärkelsen best performer vid DREAM3 konferensen. Slutligen så diskuterar vi de verktyg vi utvecklat för att analysera stabilitet och flexibilitet i linjariserade ordinära differentialekvationer i kontexten av vad andra forskare funnit.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Reverse engineering gene regulatory networks using approximate Bayesian computation

Gene regulatory networks are collections of genes that interact with one other and with other substances in the cell. By measuring gene expression over time using high-throughput technologies, it may be possible to reverse engineer, or infer, the structure of the gene network involved in a particular cellular process. These gene expression data typically have a high dimensionality and a limited...

متن کامل

G-Networks Based Two Layer Stochastic Modeling of Gene Regulatory Networks with Post-Translational Processes

Background: Thanks to the development of the mathematical/statistical reverse engineering and the high-throughput measuring biotechnology, lots of biologically meaningful gene-gene interaction networks have been revealed. Steady-state analysis of these systems provides an important clue to understand and to predict the systematic behaviours of the biological system. However, modeling such a com...

متن کامل

Genetic network inference: from co-expression clustering to reverse engineering

MOTIVATION Advances in molecular biological, analytical and computational technologies are enabling us to systematically investigate the complex molecular processes underlying biological systems. In particular, using high-throughput gene expression assays, we are able to measure the output of the gene regulatory network. We aim here to review datamining and modeling approaches for conceptualizi...

متن کامل

Reconstruction of metabolic networks from high-throughput metabolite profiling data: in silico analysis of red blood cell metabolism.

We investigate the ability of algorithms developed for reverse engineering of transcriptional regulatory networks to reconstruct metabolic networks from high-throughput metabolite profiling data. For benchmarking purposes, we generate synthetic metabolic profiles based on a well-established model for red blood cell metabolism. A variety of data sets are generated, accounting for different prope...

متن کامل

GeneNetwork: an interactive tool for reconstruction of genetic networks using microarray data

UNLABELLED Inferring genetic network architecture from time series data generated from high-throughput experimental technologies, such as cDNA microarray, can help us to understand the system behavior of living organisms. We have developed an interactive tool, GeneNetwork, which provides four reverse engineering models and three data interpolation approaches to infer relationships between genes...

متن کامل

Reverse Engineering of Genome-wide Gene Regulatory Networks from Gene Expression Data

Transcriptional regulation plays vital roles in many fundamental biological processes. Reverse engineering of genome-wide regulatory networks from high-throughput transcriptomic data provides a promising way to characterize the global scenario of regulatory relationships between regulators and their targets. In this review, we summarize and categorize the main frameworks and methods currently a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010